from indextts.infer import IndexTTS

tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml", device='cuda:0')
voice = r"C:\Users\songz\Documents\WXWork\1688855216519459\Cache\File\2025-05\5月19日.MP3"
output_path = './temp.wav'
text = "あんたの話を聞いてて、本当に飽きる気がしないよ。今日はどんな話をしてくれるのかな？もっと私を楽しませてちょうだい？"
tts.infer(voice, text, output_path)
